在机器翻译应用中,编码器和解码器通常
生成对抗网络 (GAN)
递归神经网络(通常为 vanilla RNN、LSTM 或 GRU)
Mentats
单词嵌入
对现实应用来说,比较合理的嵌入大小是多少?
4
200
6,000
在具有注意力机制的序列到序列模型中,哪些步骤需要计算注意力向量?
模型中的每个时间步(编码器和解码器)
仅编码器的每个时间步
仅解码器的每个时间步
Next Concept